Long document retrieval aims to fetch query-relevant documents from a large-scale collection, where knowledge distillation has become de facto to improve a retriever by mimicking a heterogeneous yet powerful cross-encoder. However, in contrast to passages or sentences, retrieval on long documents suffers from the scope hypothesis that a long document may cover multiple topics. This maximizes their structure heterogeneity and poses a granular-mismatch issue, leading to an inferior distillation efficacy. In this work, we propose a new learning framework, fine-grained distillation (FGD), for long-document retrievers. While preserving the conventional dense retrieval paradigm, it first produces global-consistent representations crossing different fine granularity and then applies multi-granular aligned distillation merely during training. In experiments, we evaluate our framework on two long-document retrieval benchmarks, which show state-of-the-art performance.
translated by 谷歌翻译
Federated learning has been predominantly concerned with collaborative training of deep networks from scratch, and especially the many challenges that arise, such as communication cost, robustness to heterogeneous data, and support for diverse device capabilities. However, there is no unified framework that addresses all these problems together. This paper studies the challenges and opportunities of exploiting pre-trained Transformer models in FL. In particular, we propose to efficiently adapt such pre-trained models by injecting a novel attention-based adapter module at each transformer block that both modulates the forward pass and makes an early prediction. Training only the lightweight adapter by FL leads to fast and communication-efficient learning even in the presence of heterogeneous data and devices. Extensive experiments on standard FL benchmarks, including CIFAR-100, FEMNIST and SpeechCommandsv2 demonstrate that this simple framework provides fast and accurate FL while supporting heterogenous device capabilities, efficient personalization, and scalable-cost anytime inference.
translated by 谷歌翻译
有机搜索包括电子商务公司总流量的很大一部分。扩大公司在有机搜索渠道上接触的一种方法是创建对客户意图的覆盖范围更广泛的着陆页。在本文中,我们提出了一个基于变压器语言模型的有机渠道页面管理系统,旨在提高公司对渠道的总体点击的突出性。我们的系统成功地处理了数百万个新登陆页面的创建和部署过程。我们展示并讨论了最先进的语言表示方法的现实表现,并揭示了我们如何将它们视为最佳的解决方案。
translated by 谷歌翻译
光学相干断层扫描(OCT)是一种非侵入性技术,可在微米分辨率中捕获视网膜的横截面区域。它已被广泛用作辅助成像参考,以检测与眼睛有关的病理学并预测疾病特征的纵向进展。视网膜层分割是至关重要的特征提取技术之一,其中视网膜层厚度的变化和由于液体的存在而引起的视网膜层变形高度相关,与多种流行性眼部疾病(如糖尿病性视网膜病)和年龄相关的黄斑疾病高度相关。变性(AMD)。但是,这些图像是从具有不同强度分布或换句话说的不同设备中获取的,属于不同的成像域。本文提出了一种分割引导的域适应方法,以将来自多个设备的图像调整为单个图像域,其中可用的最先进的预训练模型可用。它避免了即将推出的新数据集的手动标签的时间消耗以及现有网络的重新培训。网络的语义一致性和全球特征一致性将最大程度地减少许多研究人员报告的幻觉效果,这些效应对周期矛盾的生成对抗网络(Cyclegan)体系结构。
translated by 谷歌翻译
智能对话代理人和人类之间互动的承诺是,模型可以从这种反馈中学习以改进。不幸的是,野外的这种交流并不总是涉及良性或高质量的人类话语,并将包括订婚的(助手),未接触甚至恶意用户(巨魔)的混合。在这项工作中,我们研究了如何在这种环境中进行强大的学习。我们引入了基准评估,即Safetymix,可以评估在各种对抗环境中学习安全语言与有毒语言的方法,以测试其稳健性。我们建议和分析几种缓解学习算法,这些算法在示例或用户级别上识别巨魔。我们的主要发现是,基于用户的方法考虑到巨魔用户将在多个示例中表现出对抗性行为,在我们的基准测试中的各种环境中都可以使用。然后,我们在部署期间收集的对话的进一步现实生活中测试这些方法,结果相似。
translated by 谷歌翻译
我们提出了Blenderbot 3,这是一个175B参数对话模型,能够通过访问Internet和长期内存进行开放域对话,并接受了大量用户定义的任务的培训。我们同时发布了模型权重和代码,还将模型部署在公共网页上,以与有机用户进行交互。该技术报告描述了该模型的构建方式(建筑,模型和培训计划)以及其部署的细节,包括安全机制。人类评估表明,它优于现有的开放域对话代理,包括其前身(Roller等,2021; Komeili等,2022)。最后,我们使用部署收集的数据详细介绍了持续学习的计划,该数据也将公开发布。因此,该研究计划的目标是使社区能够研究通过互动学习的不断改进的负责任的代理商。
translated by 谷歌翻译
在本文中,我们介绍了DA $^2 $,这是第一个大型双臂灵敏性吸引数据集,用于生成最佳的双人握把对,用于任意大型对象。该数据集包含大约900万的平行jaw grasps,由6000多个对象生成,每个对象都有各种抓紧敏度度量。此外,我们提出了一个端到端的双臂掌握评估模型,该模型在该数据集的渲染场景上训练。我们利用评估模型作为基准,通过在线分析和真实的机器人实验来显示这一新颖和非平凡数据集的价值。所有数据和相关的代码将在https://sites.google.com/view/da2dataset上开源。
translated by 谷歌翻译
我们研究了高度实用但相对研究的潜在域适应性问题,其中应将源模型适应包含未标记域的混合域和域 - IRRERRELERRELERRELERVANS的目标数据集。此外,受数据隐私要求以及对适应本地数据分布的嵌入式和资源约束设备的需求的激励,我们专注于设置无馈源源域的适应到源数据集,也可以返回传播。我们的解决方案是元学习网络,能够嵌入混合相关目标数据集,并使用交叉注意力动态适应目标示例。最终的框架可导致强大的ERM基线的一致改进。我们还表明,我们的框架有时甚至在域监督适应的上限上有所改善,在这种适应中,仅提供与域相关的实例进行适应。这表明人类注释的域标签可能并不总是最佳的,并提高了通过自动实例选择做得更好的可能性。
translated by 谷歌翻译
现有的自动数据增强(DA)方法要么忽略根据培训期间目标模型的状态根据目标模型的状态忽略更新DA的参数,要么采用不够有效的更新策略。在这项工作中,我们设计了一种新型的数据增强策略,称为“通用自适应数据增强”(UADA)。与现有方法不同,UADA会根据目标模型在训练过程中根据目标模型的梯度信息自适应地更新DA的参数:给定预定义的DA操作集,我们随机确定培训期间每个数据批次的DA操作的类型和大小,并自适应地更新DA的参数沿损失的梯度方向与DA参数有关。这样,UADA可以增加目标网络的训练损失,而目标网络将从更艰难的样本中学习以改善概括的功能。此外,UADA非常通用,可以在许多任务中使用,例如图像分类,语义分割和对象检测。在CIFAR-10,CIFAR-100,ImageNet,Tiny-Imagenet,CityScapes和VOC07+12上进行了各种模型的广泛实验,以证明我们提出的适应性增强带来了重大的性能改善。
translated by 谷歌翻译
我们可以将异源图结构与文本结合在一起以学习高质量的语义和行为表示吗?图形神经网络(GNN)S编码数值节点属性和图形结构,以在各种监督的学习任务中实现令人印象深刻的性能。当前的GNN方法受到文本特征的挑战,文本特征通常需要编码为数值向量,然后再提供给GNN,这可能会导致一些信息损失。在本文中,我们提出了一个有效有效的框架,称为语言模型GNN(LM-GNN),以共同训练大型语言模型和图形神经网络。我们的框架中的有效性是通过首先使用异质图信息,然后使用GNN模型应用BERT模型的阶段微调来实现的。提出了几种系统和设计优化,以实现可扩展有效的培训。 LM-GNN可容纳节点和边缘分类以及链接预测任务。我们在不同数据集的性能中评估了LM-GNN框架,并展示了所提出方法的有效性。 LM-GNN在亚马逊查询购买应用程序中提供竞争结果。
translated by 谷歌翻译